登录或注册
登录或注册
智能论文笔记
www.aixpaper.com
搜索
最新
推荐
我的收藏
Towards Using Fully Observable Policies for POMDPs
András Attila Sulyok
,
Kristóf Karacs
分类:
机器学习
|
人工智能
2022-07-24
部分可观察到的马尔可夫决策过程(POMDP)是适用于许多现实世界问题的框架。在这项工作中,我们提出了一种方法,通过依靠解决完全可观察的版本的策略来解决具有多模式信念的POMDP。通过deleinig,基于完全可观察到的变体的值函数的新的混合价值函数,我们可以使用相应的贪婪策略来求解POMDP本身。我们开发了讨论所需的数学框架,并引入了基于侦察盲tictactoe的任务的基准。在此基准测试中,我们表明我们的政策优于政策,而忽略了多种模式的存在。
translated by 谷歌翻译